[1] 0.68269
[1] 0.24197
Mestrado Profissional em Administração
IFMG - Campus Formiga
2 de setembro de 2025
O que vimos até o momento?
Aula 1 ✅
Aula 2 ✅
Minicurso Intensivo sobre Teoria da Probabilidade - Parte I
Diretrizes para Aulas Mais Produtivas
⌨️ Código com método:
95% dos erros são evitáveis com:
🤝 Inteligência colaborativa:
💪 Capacidade de Resolver Problemas
Cada problema/erro resolvido é uma evolução da sua habilidade analítica
Experimento Aleatório
Processo ou fenômeno com resultados incertos, ou seja, não podemos prever o resultado com certeza, mas podemos descrever os possíveis resultados.
Exemplos de “Experimentos”/Processos Aleatórios:
Por que “experimento”?
Definição
Conjunto de todos os resultados possíveis de um processo aleatório, denotado por \(S\).
Exemplos:
\[ S_1 = \{1, 2, 3, 4, 5, 6\} \]
\[ S_2 = \{Aprovado, Reprovado\} \]
\[ S_3 = \{ r \in \mathbb{R} : -1 < r < +\infty \} \]
Definição
É qualquer conjundo do espaço amostral (\(S\)), incluindo resultados individuais, S e o cojunto nulo.
Se um resultado é membro de um evento, dizemos que o evento ocorreu.
Exemplos:
\(A = \{3\}\) é um evento de \(S_1\)
\(B = \{Aprovado\}\) é um evento de \(S_2\)
\(C = \{r > 0\}\) é um evento de \(S_3\)
Teoremas
Podemos provar um grande número de teoremas úteis sobre probabilidade de eventos usando a teoria dos conjuntos. Mas antes vejamos alguns conceitos e notação
\(P(A \cap B)\), em termos de probabilidade de ocorrência de eventos, é a probabilidade de \(A\) e \(B\) ocorrerem simultaneamente.
\(P(A \cup B)\) é a probabilidade de \(A\) ou \(B\) ocorrerem, que implica ou \(A\) ou \(B\) ou ambos ocorrerem.
\(P(\bar{A}) = 1 - P(A)\) é a probabilidade de \(A\) não ocorrer.
Exemplos
Definição
\[ A \cap B = \emptyset \]
Definição
\[ A \cup B = S \quad \text{e} \quad A \cap B = \emptyset \]
Axiomas
Atribuiremos a cada evento \(A\) um número \(P(A)\), que é a probabilidade de o evento ocorrer. Nós exigimos que:
\(P(A) \geq 0\) para qualquer evento \(A \in S\)
\(P(S) = 1\) onde \(S\) é o espaço amostral
Para qualquer sequência de eventos mutuamente exclusivos \(A_1, A_2, \ldots\):
\(P\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i)\)
Os axiomas 1 e 2 implicam que \(0 \leq P(A) \leq 1\) para qualquer evento \(A\).
Uma probabilidade em um espaço amostral \(S\) é uma coleção de números \(P(A)\) que satisfazem os axiomas 1-3.
Probabilidade Frequentista
“A Probabilidade de um evento A ocorrer em n repetições de um experimento é aproximadamente a frequência relativa de A”:
\[ P(A) \approx \frac{\text{vezes que A ocorreu}}{\text{nº total de repetições}} \quad \text{(para muitas tentativas)} \]
Exemplo:
Em 10.000 lançamentos de moeda, saíram 4.983 caras → \(P(\text{cara}) \approx 0.4983\).
Hospitais calculam mortalidade cirúrgica acompanhando resultados históricos.
🔍 A lei dos grandes números garante que essa aproximação melhora conforme aumentamos as repetições.
Descrição
A mais fundamental dessas relações é a independência.
Dois eventos \(A\) e \(B\) são independentes se:
\[ P(A \cap B) = P(A)P(B) \]
Dois ou mais eventos \(A_1, A_2, \ldots, A_n\), são independentes se:
\[ P\left(\bigcap_{i=1}^\infty A_i\right) = \prod_{i=1}^\infty P(A_i) \]
Exemplo
A porcentagem de acerto de arremessos de 3 pontos de Steph Curry é de 44% \(\rightarrow\) \(P(Acertar) = 0.44\)
Portanto, a probabilidade de erro é \(P(Errar) = 1 - P(Acertar) = 1 - 0.44 = 0.56\)
Considere que os arremessos são eventos independentes.
Questão 1
Qual é a probabilidade de ele errar os próximos três arremessos que fizer e, em seguida, acertar os três seguintes?
\[ P(Errar)\cdot P(Errar)\cdot P(Errar)\cdot P(Acertar)\cdot P(Acertar) \\ \cdot P(Acertar) = (0,563)^3 \cdot (0,443)^3 = 0,015 \]
Obtemos o mesmo resultado para qualquer sequência específica de 3 erros e 3 acertos —a ordem não importa.
Questão 2
Qual é a probabilidade de ele errar três e acertar três dos próximos seis arremessos que fizer?
Basta multiplicar a probabilidade de qualquer uma dessas sequências (0,015) pelo número dessas sequências:
\(\binom{6}{3} = \frac{6!}{3!3!} = 20\).
\(0,015 \cdot 20 = 0,30 = 30\%\)
Questão 3
Qual é a probabilidade de ele acertar pelo menos um arremesso nos próximos seis arremessos que fizer?
\(P(X \geq 1)\) = ?
Opção 1: Somar as probabilidades de cada resultado possível:
\[ P(X \geq 1) = P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5) \\ + P(X = 6) \]
\[ P(X \geq 1) = 1 - P(X = 0) = 1 - (0,56)^6 = 0,969 \]
Motivação
Lembre-se de que saber que dois eventos são independentes significa que a ocorrência (ou não ocorrência) de um evento não diz nada sobre o outro.
Mas e se tivermos dois eventos em que a ocorrência de um evento nos diz algo relevante sobre a probabilidade de outro evento?
Como podemos alterar a probabilidade do segundo evento adequadamente?
Definição
A probabilidade de um evento \(A\) ocorrer, condicional à ocorrência de outro evento \(B\), assumindo \(P(B) > 0\) é :
\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]
Pense em redefinir o evento e o espaço amostral com base em novas informações.
Relação
Qual é a relação entre independência e probabilidade condicional?
Suponha que \(A\) e \(B\) sejam independentes e \(P(B) > 0\), então:
\[ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(A)P(B)}{P(B)} = P(A) \]
Isso é consistente com nossa intuição — a ocorrência de \(B\) não nos diz nada sobre a probabilidade de \(A\), então a probabilidade condicional é igual à probabilidade incondicional.
Observe que a implicação é bidirecional: \(P(A|B) = P(A)\) se, e somente se, \(A\) e \(B\) forem independentes.
Enunciado
Se \(\{A_1,A_2,\dots,A_k\}\) é uma coleção de eventos mutuamente exclusivos e exaustivos, então, para qualquer outro evento \(B\):
\[ P(B) = \sum_{i=1}^k P(B|A_i)P(A_i) \]
Um banco possui dois perfis de clientes:
As taxas de inadimplência são:
Qual a probabilidade de um cliente qualquer ser inadimplente?
Pelo Teorema da Probabilidade Total:
\[ P(A) = P(A \mid B_1) \cdot P(B_1) + P(A \mid B_2) \cdot P(B_2) \]
Substituindo os valores:
\[ P(A) = 0.05 \cdot 0.7 + 0.20 \cdot 0.3 = 0.035 + 0.06 = {0.095} \]
A probabilidade total de inadimplência para qualquer cliente é de 9,5%.
Enunciado
Se \(\{A_1,A_2,\dots,A_k\}\) é uma coleção de eventos mutuamente exclusivos e exaustivos, então, para qualquer outro evento \(B\), com \(P(B) > 0\), temos:
\[ P(A_i \mid B) = \frac{P(B \mid A_i) \cdot P(A_i)}{\sum_{j=1}^k P(B \mid A_j) \cdot P(A_j)} \]
Um banco utiliza um modelo de classificação de risco de inadimplência para avaliar novos clientes. Com base em dados históricos:
O modelo apresenta os seguintes desempenhos:
Sensibilidade (acerto entre inadimplentes):
\(P(\text{classificado como alto risco} \mid \text{inadimplente}) = 0.9\)
Falsos positivos (classifica adimplente como arriscado):
\(P(\text{classificado como alto risco} \mid \text{adimplente}) = 0.2\)
Nomeando os eventos:
Queremos calcular:
\[ P(A_1 \mid B) = P(\text{inadimplente} \mid \text{classificado como alto risco}) \]
Aplicando o Teorema de Bayes:
\[ P(A_1 \mid B) = \frac{P(B \mid A_1) \cdot P(A_1)} {P(B \mid A_1) \cdot P(A_1) + P(B \mid A_2) \cdot P(A_2)} \]
Substituindo os valores:
\[ P(A_1 \mid B) = \frac{0.9 \cdot 0.10} {0.9 \cdot 0.10 + 0.2 \cdot 0.90} = \frac{0.09}{0.09 + 0.18} = \frac{0.09}{0.27} \approx \boxed{0.333} \]
Mesmo com um modelo que acerta 90% dos inadimplentes, a chance de um cliente classificado como “alto risco” realmente ser inadimplente é de 33,3%.
Isso mostra que:
A baixa prevalência da inadimplência (10%) limita o valor preditivo positivo do modelo.
O Teorema de Bayes permite avaliar a utilidade real da classificação de risco feita pelo modelo.
O Teorema de Bayes nos permite atualizar uma estimativa de probabilidade (a priori) com base em nova evidência observada.
Neste caso, atualizamos a prabobilidade de inadimplência de 10% para 33,3% após sabermos que o cliente foi classificado como alto risco.
\[ P: 2^S \rightarrow [0, 1] \]
\[ \large 2^S \xrightarrow{\hspace{0.5cm}P\hspace{0.5cm}} [0,1] \]
A probabilidade é uma função definida sobre eventos (conjuntos).
O Caso Discreto: Espaços Finitos e Contáveis
Para um espaço amostral \(S\) finito ou contável (onde podemos “contar” os resultados, mesmo que infinitos):
\(2^S\) representa todos os grupos possíveis de resultados
Cada grupo é um evento ao qual podemos atribuir probabilidade
A probabilidade de qualquer evento \(A \subseteq S\) é definida por:
\[ P(A) = \sum_{s \in A} P(\{s\}) \]
Por que funciona?
Exemplo:
Seja \(S = \{C, T\}\) (cara, coroa) no lançamento de uma moeda:
Quando \(S\) é não-contável (ex: todos os pontos entre 0 e 1):
Consequência: Precisamos restringir nossa atenção apenas aos conjuntos “bem-comportados”
Uma coleção \(\mathcal{F} \subseteq 2^S\) é uma \(\sigma\)-álgebra se:
Para espaços contínuos, usamos a \(\sigma\)-álgebra de Borel \(\mathcal{B}(\mathbb{R})\):
Um espaço de probabilidade é agora a tripla \((S, \mathcal{F}, P)\) onde:
Esta nova abordagem exigiu o desenvolvimento da integral de Lebesgue, que:
Exemplo: O valor esperado de uma variável aleatória \(X\) é definido como:
\[ E[X] = \int_S X(s) \,dP(s) \]
(uma integral de Lebesgue em relação à medida de probabilidade)
Para Espaços Discretos
Para Espaços Contínuos
A teoria moderna da probabilidade unifica ambos os casos através:
Esta fundamentação sólida permitiu o desenvolvimento avançado da teoria probabilística e suas aplicações modernas.
Probabilidade de eventos de \(S\)
Processo Aleatório: Jogar uma moeda honesta duas vezes.
\[ S = \{HH, HT, TH, TT\}. \]
Problema: Qual a probabilidade de obter exatamente uma cara?
Conjunto de resultados favoráveis:
\[
A = \{HT, TH\}.
\]
Probabilidade: \[ P(A) = \frac{|A|}{|S|} = \frac{2}{4} = 0.5. \]
Problema: Qual a probabilidade de obter duas caras?
Conjunto de resultados favoráveis:
\[ B = \{HH\}. \]
Probabilidade:
\[ P(B) = \frac{|B|}{|S|} = \frac{1}{4} = 0.25. \]
Antes do conceito de VA, os cálculos eram feitos diretamente sobre eventos \(S\), sem uma função que mapeasse esses resultados para números.
Motivação
Os axiomas de probabilidade são gerais o suficiente para descrever muitas formas de aleatoriedade (por exemplo, cara ou coroa, um sorteio de uma carta de um baralho ou um retorno futuro do IBovespa).
No entanto, aplicar a probabilidade diretamente a eventos pode ser difícil porque eventos podem ser qualitativos, abstratos.
Muitas vezes, há alguma característica numérica do espaço amostral em que estamos interessados, por exemplo:
a soma das faces de dois dados;
o número de inadimplentes em uma carteira de crédito no próximo mês;
\[ \large S \xrightarrow{\hspace{0.5cm}X\hspace{0.5cm}} \mathbb{R} \]
\[ P(X \in A) = P\{s: X(s) \in A\} \]
A probabilidade da VA \(X\) assumir um valor no conjunto \(A\) é igual à probabilidade do evento (em \(S\)) formado por todos os resultados \(s\) cuja imagem, \(X(s)\), pertence a \(A\).
Uma VA mapeia resultados de \(S\) para números, e a probabilidade definida sobre \(S\) induz uma distribuição da VA.
Variável Aleatória em Ação
Processo Aleatório: Jogar uma moeda honesta duas vezes.
\[ S = \{HH, HT, TH, TT\}. \]
Defina a variável aleatória:
\[ X(s) = \text{número de caras em } s. \]
| \(S\) | \(X(s)\) |
|---|---|
| TT | 0 |
| HT | 1 |
| TH | 1 |
| HH | 2 |
Obs: \(P(X = 0)\) é uma abreviação para \(P\{s: X(s) = 0\}\)
\[ S \xrightarrow{\hspace{0.3cm}X\hspace{0.3cm}} \mathbb{R} \]
Texto cru: sequência de palavras/tokens
Embeddings: mapeiam palavras para vetores numéricos
Permite aplicar aprendizado estatístico e redes neurais.
Em ambos os casos, ocorre uma mudança de representação:
de qualitativo → quantitativo, abrindo caminho para o uso das ferramentas matemáticas.
Definição
Uma VA discreta pode assumir somente um número finito ou contavelmente infinito de valores.
Para VA discretas, podemos começar com uma descrição verbal, calcular probabilidades para cada valor da VA e, em seguida, escrever uma função ou desenhar um gráfico descrevendo essas probabilidades para diferentes valores da variável aleatória.
Chamamos a função, tabela ou gráfico que associe a cada \(X\) sua probabilidade de ocorrer, uma distribuição de probabilidade de \(X\).
Exemplo
Seja \(X\) o número de arremessos de 3 pontos que Steph Curry acerta nos próximos seis arremessos que ele fizer.
Podemos calcular a probabilidade de que \(X = 0, 1, 2\) e assim por diante, até o máximo de 6, usando:
\[ \binom{6}{x} (0.44)^x (0.56)^{6-x} \]
| \(X\) | \(P(X = x)\) |
|---|---|
| 0 | 0.03 |
| 1 | 0.15 |
| 2 | 0.29 |
| 3 | 0.30 |
| 4 | 0.18 |
| 5 | 0.06 |
| 6 | 0.01 |
Distribuição de Probabilidade de X
Função de Probabilidade
A funçao de probabilidade de uma VA discreta \(X\) é a função \(f_X(x)\), tal que para qualquer número real \(x\):
\[ f_X(x) = p(X = x) \]
A função de probabilidade tem propriedades induzidas pela definição axiomática de probabilidade. Em particular:
\[ \begin{align*} 0 \leq f_X(x_i) \leq 1 \\ \sum_i f_X(x_i) = 1 \\ P(A) = P(X \in A) = \sum_{x_i \in A} f_X(x_i) \end{align*} \]
Definição
Uma VA contínua que pode assumir qualquer valor em algum intervalo, limitado ou ilimitado, de \(\mathbb{R}\).
Para VA contínuas, raramente começamos com uma descrição verbal que usamos para calcular probabilidades. Em vez disso, normalmente nos é dada uma função, chamada densidade, que descreve a probabilidade de a variável aleatória estar em várias regiões.
Figura 1: Curvas de densidade
Definição
\[ P(X\in A) \;=\; \int_{A} \underbrace{f_X(x)}_{\text{Esta é a fdp}}\, dx \]
Função Densidade de Probabilidade
Assim como A FP, a FDP possui propriedades induzidas pela definição anterior de probabilidade. Em particular,
\[ \begin{align*} f_X(x_i) \geq 0 \quad \text{(pode ser maior que 1)}\\ \int f_X(x) = 1 \quad \text{(integral = 1, ao invés da soma)} \\ P(A) = P(a \leq X \leq b) = \int_A f_X(x)dx \end{align*} \]
Para uma VA X contínua, \(P(X = x) = 0\) para todo \(x\), pois integramos \(f_X\) em uma região particular para calcular a probabilidade de que a VA esteja nesta região.
Motivação
Às vezes, é útil poder expressar probabilidades relacionadas a uma variável aleatória em uma forma alternativa.
Duplamente útil é o fato de que essa forma alternativa tem a mesma definição, independentemente de a variável aleatória ser discreta ou contínua.
Definição
\[ F_X(x) = P(X \leq x) \]
\(0 \leq F_X(x) \leq 1\)
\(F_X(x)\) é não-decrescente em \(x\)
\(\lim_{x \to -\infty} F_X(x) = 0\)
\(\lim_{x \to \infty} F_X(x) = 1\)
Figura 2: FDA de uma Variável Aleatória Discreta.
Figura 3: FDA de uma Variável Aleatória Contínua.
Apenas Representações Alternativas
As FP, FDP e FDA para uma VA particular contém exatamente a mesma informação sobre sua distribuicão, apenas em forma diferente.
Faz sentido, então, perguntar se, dada a FP/FDP, seria possível recuperar a FDA e vice-versa?
Sim, e para VA Contínuas podemos obter com:
\[ \begin{align*} F_X(x) = P(X \leq x) = \int_{-\infty}^x f_X(s)dx \\ f_X(x) = \frac{dF_X(x)}{dx} \end{align*} \]
Vantagens do uso da FDA
Generalidade: a FDA existe para qualquer distribuição (discreta ou contínua).
Conveniência e Estabilidade numérica: em vez de calcular manualmente a integral da densidade, basta usar uma FDA implementada em R (pnorm, pbeta, pexp, etc.), que já incorpora algoritmos numéricos confiáveis.
O que você deve saber sobre uma FP?
A atribuição de uma probabilidade ou densidade de probabilidade a todo valor concebível de \(Y_i\).
Os princípios fundamentais
Como usar a expressão final (mas não necessariamente a derivação completa da expressão).
Como simular a partir da densidade.
Como calcular características da densidade, como seus “momentos”.
Como verificar se a expressão final é de fato uma função de densidade adequada.
Introdução
Em nossa primeiro encontro com probabilidade, abordamos o cálculo de probabilidade para eventos.
Em seguida, introduzimos os conceitos de independência e probabilidade condicional também entre eventos.
Agora, trataremos de conceitos análogos no contexto de variáveis aleatórias, mas primeiro precisamos da distribuição conjunta de probabilidade.
No caso em que apenas duas variáveis aleatórias estão envolvidas, as chamamos de distribuições bivariadas.
Por que?
Podemos estar interessados na relação e no comportamento conjunto de duas ou mais VAs:
Definição
Se \(X\) e \(Y\) são VAs contínuas definidas no mesmo espaço amostral \(S\), então, a função de densidade conjunta de \(X\) e \(Y\) é representada por \(f_{xy}(x, y)\) é a superfície tal que para toda qualquer região \(A\) definida no plano \(xy\) é dada por:
\[ P((X,Y) \subset A) = \int \int_{A} f_{XY}(x, y)\,dx\,dy = 1 \]
Como antes, as propriedades de probabilidade implicam certas propriedades da PDF conjunta, como ela deve integrar-se a 1 sobre o plano \(xy\), e qualquer ponto individual ou curva unidimensional tem probabilidade zero.
A função de probabilidade conjunta para VAs discretas é dada por:
\[ f_{XY}(x, y) = P(X = x \cap Y = y) \]
Distribuição Bivariada Contínua: a) Superfície, b) Gráfico de Contorno
Distribuição Bivariada Discreta
Exemplo
Suponha que uma professora, depois de horas preparando aulas, sinta uma dor de cabeça terrível.
Ela encontra um comprimido de naproxeno e um de paracetamol. Toma os dois.
Seja \(X\) o período de eficácia do naproxeno. Seja \(Y\) o período de eficácia do paracetamol.
Nesse caso, podemos utilizar a distribuição exponencial, frequentemente usada para modelar tempos de duração até um evento, como o efeito de um medicamento.
A FDP exponencial é: \(f_X(x) = \lambda e^{-\lambda x}, \; x \geq 0\).
Vamos supor independência entre \(X\) e \(Y\), o que permite escrever a FDP conjunta como o produto das densidades individuais (marginais):
Portanto, a distribuição conjunta para \(X\) e \(Y\) é:
\[ f_{XY}(x,y) = \lambda^2 \exp\{-\lambda (x + y)\} \quad \text{para } x,y \geq 0 \]
\[ \begin{aligned} &= \int_{0}^{3} \int_{0}^{3} \lambda^2 \exp\{-\lambda (x + y)\}\,dx\,dy \\ &= \ldots, \quad \text{significam que você pode desenvolver os detalhes como tarefa}\\ &= \bigl(1 - \exp(-3\lambda)\bigr)^2 \end{aligned} \]
Para obter uma probabilidade numérica, precisaríamos coletar dados sobre os tempos de eficácia, estimar o parâmetro \(\lambda\) (por exemplo, via máxima verossimilhança) e então substituir esse valor na expressão final.
E se definirmos uma nova variável aleatória \(Z\) = vida útil total efetiva de naproxeno e paracetamol tomados sequencialmente? Isto é \(Z = X + Y\). O que é \(F_Z(z)\)?
A variável \(Z\) representa o tempo total de alívio da dor, assumindo que os efeitos de \(X\) (naproxeno) e \(Y\) (paracetamol) se somam quando os medicamentos são tomados em sequência.
No exemplo anterior, ao calcular \(P(X \leq 3 \cap Y \leq 3)\), já estávamos integrando sobre a região \(x+y \leq 3\), o que equivale a calcular \(F_Z(3)\).
Em geral, para \(z \geq 0\), temos:
\[ F_Z(z) = P(X+Y \leq z) = \iint_{x+y \leq z} f_{XY}(x,y)\,dx\,dy = 1 - (1 + \lambda z)e^{-\lambda z}. \]
Esse resultado mostra que \(Z\) segue uma distribuição Gama com parâmetros:
Mais geralmente, se \(Z = X_1 + X_2 + \cdots + X_n\) com \(X_i \sim \text{Exp}(\lambda)\) independentes, então \(Z \sim \text{Gamma}(k=n, \theta=1/\lambda)\).
O que é \(f_Z(z)\)?
\[ f_Z(z) = \frac{d}{dz}F_Z(z) = \lambda^2 z e^{-\lambda z}, \quad z \geq 0. \]
Esta é exatamente a fdp de uma distribuição Gama com parâmetros forma \(k=2\) e taxa \(\lambda\).
Observação: podemos verificar que \(f_Z(z)\) é válida, pois \(\int_0^\infty f_Z(z)\,dz = 1\).
Exemplo
| Analista (\(X_2\)) |
Retorno da Ação (\(X_1\))
|
||
|---|---|---|---|
| -5% | 0% | 5% | |
| Negativa (-1) | 20% | 10% | 0% |
| Neutra (0) | 10% | 15% | 15% |
| Positiva (1) | 5% | 5% | 20% |
Esta função de probabilidade representa a distribuição conjunta de \(X_1\) e \(X_2\) e fornece uma descrição completa da incerteza em ambas as VAs.
\(P(X_1 = -5\% \cap X_2 = \text{Neutra}) = 10\%\)
\(\vdots\)
Conceito e Exemplo
A distribuição de um único componente de uma distribuição conjunta é chamada de distribuição marginal.
A distribuição marginal de \(X_1\) e \(X_2\) contém as probabilidades de realizações de \(X_1\) e \(X_2\) e suas FP são \(f_{X_1}(x_1)\) e \(f_{X_2}(x_2)\).
Uma FP marginal é definida por:
\[ f_{X_1}(x_1) = P(X_1 = x_1) = \sum_{x_2} f_{XY}(x_1, x_2) \quad\rightarrow\quad f_X(x) = \int_A f_{XY}(x, y) dy \]
e
\[ f_{X_2}(x_2) = P(X_2 = x_2) = \sum_{x_1} f_{XY}(x_1, x_2) \quad\rightarrow\quad f_Y(y) = \int_A f_{XY}(x, y) dx \]
Quando uma FP é representada como uma tabela, as duas distribuições marginais são calculadas pela soma entre colunas (o que constrói a distribuição marginal da variáveis de linha) ou pela soma entre linhas (o que constrói a distribuição marginal para as variáveis de coluna).
No caso do exemplo, temos:
| Analista (\(X_2\)) |
Retorno da Ação (\(X_1\))
|
\(f_{X_2}(x_2)\) | ||
|---|---|---|---|---|
| -5% | 0% | 5% | ||
| Negativa (-1) | 20% | 10% | 0% | 30% |
| Neutra (0) | 10% | 15% | 15% | 40% |
| Positiva (1) | 5% | 5% | 20% | 30% |
| \(f_{X_1}(x_1)\) | 35% | 30% | 35% | 100% |
Conceito e Exemplo
Similarmente à ideia de probabilidade condicional, queremos introduzir a distribuição condicional, que permite “atualizar” a distribuição de uma variável aleatória, se necessário, dadas informações relevantes.
A distribuição condicional, resume a probabilidade dos resultados de uma variável aleatória condicionada à outra assumir um valor específico.
A distribuição condicional de \(X_1\) dado \(X_2 = x_2\) é definida como:
\[ f_{X_1 \mid X_2}(X_1 \mid X_2 = x_2) = \frac{f_{X_1,X_2}(x_1, x_2)}{f_{X_2}(x_2)} \]
Pela tabela anterior, a distribuição marginal de \(X_2 = 1\) é \(f_{X_2}(1) = 30\%\), logo:
\[ \begin{aligned} f(X_1 = -5\% \mid X_2 = 1) &= \tfrac{5\%}{30\%} = \tfrac{1}{6} \approx 16{,}7\% \\ f(X_1 = 0\% \mid X_2 = 1) &= \tfrac{5\%}{30\%} = \tfrac{1}{6} \approx 16{,}7\% \\ f(X_1 = 5\% \mid X_2 = 1) &= \tfrac{20\%}{30\%} = \tfrac{2}{3} \approx 66{,}7\% \end{aligned} \]
| Retorno da Ação (\(X_1\)) | \(f(X_1 \mid X_2 = 1)\) |
|---|---|
| -5% | 16,7% |
| 0% | 16,7% |
| 5% | 66,7% |
Distribuições condicionais de y (despesas com alimentação) dados dois níveis \(x\) (renda).
Relação com Independência
Não é de surpreender que exista uma relação entre distribuições condicionais e independência:
\[ f_{Y|X}(y|x) = f_Y(y) \, \text{se, e somente se,} \, f_{XY}(x,y) = f_X(x)\cdot f_Y(y) \\ \text{se, e somente se, X e Y são independentes} \]
Se duas VAs são independentes, saber algo sobre as realizações de uma não diz nada sobre a distribuição da outra.
Em outras palavras, o condicionamento em x não faz com que você atualize a distribuição de Y, se X e Y são independentes